<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
	<title>近实时搜索 | Elasticsearch: 权威指南 | Elastic</title>
    <!-- Give IE8 a fighting chance -->
    <!--[if lt IE 9]>
    <script src="https://oss.maxcdn.com/html5shiv/3.7.2/html5shiv.min.js"></script>
    <script src="https://oss.maxcdn.com/respond/1.4.2/respond.min.js"></script>
    <![endif]-->
	<link rel="stylesheet" type="text/css" href="../static/styles.css" />
</head>
<body>
<div class="main-container">
    <section id="content">
        
        <div class="content-wrapper">
            <section id="guide" lang="zh_cn">
                <div class="container">
                    <div class="row">
                        <div class="col-xs-12 col-sm-8 col-md-8 guide-section">
                            <div style="color:gray; word-break: break-all; font-size:12px;">原文地址: <a href="https://www.elastic.co/guide/cn/elasticsearch/guide/current/near-real-time.html" rel="nofollow">https://www.elastic.co/guide/cn/elasticsearch/guide/current/near-real-time.html</a>, 版权归 www.elastic.co 所有<br/>
                            英文版地址: <a href="https://www.elastic.co/guide/en/elasticsearch/guide/current/near-real-time.html" rel="nofollow">https://www.elastic.co/guide/en/elasticsearch/guide/current/near-real-time.html</a>
                            </div>
                        <!-- start body -->
                  <div class="page_header">
<b>请注意:</b><br>本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。
</div>
<div id="content">
<div class="breadcrumbs">
<span class="breadcrumb-link"><a href="index.html">Elasticsearch: 权威指南</a></span>
»
<span class="breadcrumb-link"><a href="getting-started.html">基础入门</a></span>
»
<span class="breadcrumb-link"><a href="inside-a-shard.html">分片内部原理</a></span>
»
<span class="breadcrumb-node">近实时搜索</span>
</div>
<div class="navheader">
<span class="prev">
<a href="dynamic-indices.html">« 动态更新索引</a>
</span>
<span class="next">
<a href="translog.html">持久化变更 »</a>
</span>
</div>
<div class="section">
<div class="titlepage"><div><div>
<h2 class="title">
<a id="near-real-time"></a>近实时搜索<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/075_Inside_a_shard/40_Near_real_time.asciidoc">edit</a>
</h2>
</div></div></div>
<p>随着按段（per-segment）搜索的发展，一个新的文档从索引到可被搜索的延迟显著降低了。新文档在几分钟之内即可被检索，但这样还是不够快。</p>
<p>磁盘在这里成为了瓶颈。提交（Commiting）一个新的段到磁盘需要一个
<a href="http://en.wikipedia.org/wiki/Fsync" class="ulink" target="_top"><code class="literal">fsync</code></a> 来确保段被物理性地写入磁盘，这样在断电的时候就不会丢失数据。
但是 <code class="literal">fsync</code> 操作代价很大; 如果每次索引一个文档都去执行一次的话会造成很大的性能问题。</p>
<p>我们需要的是一个更轻量的方式来使一个文档可被搜索，这意味着 <code class="literal">fsync</code> 要从整个过程中被移除。</p>
<p>在Elasticsearch和磁盘之间是文件系统缓存。 像之前描述的一样，
在内存索引缓冲区（ <a class="xref" href="near-real-time.html#img-pre-refresh" title="在内存缓冲区中包含了新文档的 Lucene 索引">Figure 19, “在内存缓冲区中包含了新文档的 Lucene 索引”</a> ）中的文档会被写入到一个新的段中（ <a class="xref" href="near-real-time.html#img-post-refresh" title="缓冲区的内容已经被写入一个可被搜索的段中，但还没有进行提交">Figure 20, “缓冲区的内容已经被写入一个可被搜索的段中，但还没有进行提交”</a> ）。
但是这里新段会被先写入到文件系统缓存—​这一步代价会比较低，稍后再被刷新到磁盘—​这一步代价比较高。不过只要文件已经在缓存中，
就可以像其它文件一样被打开和读取了。</p>
<div id="img-pre-refresh" class="imageblock">
<div class="content">
<img src="../images/elas_1104.png" alt="A Lucene index with new documents in the in-memory buffer">
</div>
<div class="title">Figure 19. 在内存缓冲区中包含了新文档的 Lucene 索引</div>
</div>
<p>Lucene 允许新段被写入和打开—​使其包含的文档在未进行一次完整提交时便对搜索可见。
这种方式比进行一次提交代价要小得多，并且在不影响性能的前提下可以被频繁地执行。</p>
<div id="img-post-refresh" class="imageblock">
<div class="content">
<img src="../images/elas_1105.png" alt="The buffer contents have been written to a segment, which is searchable, but is not yet commited">
</div>
<div class="title">Figure 20. 缓冲区的内容已经被写入一个可被搜索的段中，但还没有进行提交</div>
</div>
<div class="section">
<div class="titlepage"><div><div>
<h3 class="title">
<a id="refresh-api"></a>refresh API<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/075_Inside_a_shard/40_Near_real_time.asciidoc">edit</a>
</h3>
</div></div></div>
<p>在 Elasticsearch 中，写入和打开一个新段的轻量的过程叫做 <em>refresh</em> 。
默认情况下每个分片会每秒自动刷新一次。这就是为什么我们说 Elasticsearch 是 <em>近</em> 实时搜索:
文档的变化并不是立即对搜索可见，但会在一秒之内变为可见。</p>
<p>这些行为可能会对新用户造成困惑: 他们索引了一个文档然后尝试搜索它，但却没有搜到。这个问题的解决办法是用 <code class="literal">refresh</code> API 执行一次手动刷新:</p>
<div class="pre_wrapper lang-json">
<pre class="programlisting prettyprint lang-json">POST /_refresh <a id="CO37-1"></a><i class="conum" data-value="1"></i>
POST /blogs/_refresh <a id="CO37-2"></a><i class="conum" data-value="2"></i></pre>
</div>
<div class="calloutlist">
<table border="0" summary="Callout list">
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO37-1"><i class="conum" data-value="1"></i></a></p>
</td>
<td align="left" valign="top">
<p>刷新（Refresh）所有的索引。</p>
</td>
</tr>
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO37-2"><i class="conum" data-value="2"></i></a></p>
</td>
<td align="left" valign="top">
<p>只刷新（Refresh） <code class="literal">blogs</code> 索引。</p>
</td>
</tr>
</table>
</div>
<div class="tip admon">
<div class="icon"></div>
<div class="admon_content">
<p>尽管刷新是比提交轻量很多的操作，它还是会有性能开销。当写测试的时候，
手动刷新很有用，但是不要在生产环境下每次索引一个文档都去手动刷新。
相反，你的应用需要意识到 Elasticsearch 的近实时的性质，并接受它的不足。</p>
</div>
</div>
<p>并不是所有的情况都需要每秒刷新。可能你正在使用 Elasticsearch 索引大量的日志文件， 你可能想优化索引速度而不是近实时搜索，
可以通过设置 <code class="literal">refresh_interval</code> ， 降低每个索引的刷新频率：</p>
<div class="pre_wrapper lang-json">
<pre class="programlisting prettyprint lang-json">PUT /my_logs
{
  "settings": {
    "refresh_interval": "30s" <a id="CO38-1"></a><i class="conum" data-value="1"></i>
  }
}</pre>
</div>
<div class="calloutlist">
<table border="0" summary="Callout list">
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO38-1"><i class="conum" data-value="1"></i></a></p>
</td>
<td align="left" valign="top">
<p>每30秒刷新 <code class="literal">my_logs</code> 索引。</p>
</td>
</tr>
</table>
</div>
<p><code class="literal">refresh_interval</code> 可以在既存索引上进行动态更新。
在生产环境中，当你正在建立一个大的新索引时，可以先关闭自动刷新，待开始使用该索引时，再把它们调回来：</p>
<div class="pre_wrapper lang-json">
<pre class="programlisting prettyprint lang-json">PUT /my_logs/_settings
{ "refresh_interval": -1 } <a id="CO39-1"></a><i class="conum" data-value="1"></i>

PUT /my_logs/_settings
{ "refresh_interval": "1s" } <a id="CO39-2"></a><i class="conum" data-value="2"></i></pre>
</div>
<div class="calloutlist">
<table border="0" summary="Callout list">
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO39-1"><i class="conum" data-value="1"></i></a></p>
</td>
<td align="left" valign="top">
<p>关闭自动刷新。</p>
</td>
</tr>
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO39-2"><i class="conum" data-value="2"></i></a></p>
</td>
<td align="left" valign="top">
<p>每秒自动刷新。</p>
</td>
</tr>
</table>
</div>
<div class="caution admon">
<div class="icon"></div>
<div class="admon_content">
<p><code class="literal">refresh_interval</code> 需要一个 <em>持续时间</em> 值， 例如 <code class="literal">1s</code> （1 秒） 或 <code class="literal">2m</code> （2 分钟）。
一个绝对值 <em>1</em> 表示的是 <em>1毫秒</em> --无疑会使你的集群陷入瘫痪。</p>
</div>
</div>
</div>

</div>
<div class="navfooter">
<span class="prev">
<a href="dynamic-indices.html">« 动态更新索引</a>
</span>
<span class="next">
<a href="translog.html">持久化变更 »</a>
</span>
</div>
</div>

                  <!-- end body -->
                        </div>
                        <div class="col-xs-12 col-sm-4 col-md-4" id="right_col">
                        
                        </div>
                    </div>
                </div>
            </section>
        </div>
    </section>
</div>
<script src="../static/cn.js"></script>
</body>
</html>